一个沿着城市街道行走的人试图对世界各个方面进行建模,这很快就会被许多商店,汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务,不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态,这是代理在世界上成功采取行动的必要和足够的?我们具体地提出了这个问题,并提出了可控制的状态发现算法(AC-State),该算法具有理论保证,并且实际上被证明可以发现\ textit {最小可控的潜在状态},其中包含所有用于控制控制的信息代理,同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型(预测遥远观察结果的动作)组成。 AC-State可以在没有奖励或示威的情况下实现本地化,探索和导航。我们证明了在三个领域中发现可控潜在状态的发现:将机器人组分散注意力(例如,照明条件和背景变化),与其他代理商一起在迷宫中进行探索,并在Matterport House Simulator中导航。
translated by 谷歌翻译
考虑互动学习的问题设定(IGL),其中学习者的目标是与环境进行最佳互动,而无需明确的奖励以依靠其政策。代理商观察上下文向量,采取行动并接收反馈向量,并使用此信息有效地优化潜在奖励功能的策略。当反馈向量包含该动作时,事先分析的方法失败了,这在许多潜在方案中显着限制了IGL的成功,例如脑部计算机界面(BCI)或人类计算机界面(HCI)应用程序。我们通过创建算法和分析来解决这一问题,该算法和分析即使反馈向量包含以任何方式编码的动作,允许IGL起作用。我们根据监督数据集提供理论保证和大规模实验,以证明新方法的有效性。
translated by 谷歌翻译